智能论文笔记

The People's Speech: A Large-Scale Diverse English Speech Recognition Dataset for Commercial Usage

Daniel Galvez , Greg Diamos , Juan Ciro , Juan Felipe Cerón , Keith Achorn , Anjali Gopi , David Kanter , Maximilian Lam , Mark Mazumder , Vijay Janapa Reddi

分类：机器学习 | (统计)机器学习

2021-11-17

人民的言论是自由下载的30,000小时，并在CC-BY-SA下进行学术和商业用途的许可的受监管的会话英语语音识别数据集（具有CC-by子集）。通过使用现有转录搜索适当许可的音频数据来通过搜索互联网来收集数据。我们描述了我们的数据收集方法，并在Apache 2.0许可证下发布了我们的数据收集系统。我们表明，在此数据集上培训的模型在Librispeech的测试清洁测试集上实现了9.98％的单词错误率。最后，我们讨论了围绕创建一个相当大量的机器学习的法律和道德问题，并计划继续维护项目的计划根据MLCommons的赞助。

translated by 谷歌翻译

The Saddle-Point Accountant for Differential Privacy

Wael Alghamdi , Shahab Asoodeh , Flavio P. Calmon , Juan Felipe Gomez , Oliver Kosut , Lalitha Sankar , Fei Wei

分类：机器学习

2022-08-20

我们引入了一个新的差异隐私（DP）会计师，称为鞍点会计师（SPA）。SPA以准确而快速的方式近似保证DP机制的组成。我们的方法是受鞍点法的启发，这是一种统计中无处不在的数值技术。通过为SPA提供的近似误差，我们通过得出上限和下限来证明性能的严格保证。水疗中心的关键是与中心极限定理的大型探空方法的组合，我们通过指数倾斜与DP机制相对应的隐私损失随机变量来得出。水疗中心的一个关键优点是，它可以在$ n $折叠机制的$ n $折叠组成下持续运行。数值实验表明，水疗中心的准确性与更快的运行时的最新会计方法相当。

translated by 谷歌翻译

Resource Allocation in Multicore Elastic Optical Networks: A Deep Reinforcement Learning Approach

Juan Pinto-Ríos , Felipe Calderón , Ariel Leiva , Gabriel Hermosilla , Alejandra Beghelli , Danilo Bórquez-Paredes , Astrid Lozada , Nicolás Jara , Ricardo Olivares , Gabriel Saavedra

分类：机器学习 | 人工智能

2022-07-05

第一次采用了深入的增强学习方法来解决动态多核心纤维弹性光学网络（MCF-eons）中的路由，调制，频谱和核心分配（RMSCA）问题。为此，设计和实施了一个与OpenAI的健身房兼容的新环境，以模仿MCF -eons的运行。新的环境通过考虑网络状态和与物理层相关的方面来处理代理操作（选择路线，核心和频谱插槽）。后者包括可用的调制格式及其覆盖范围以及与MCF相关的障碍的核心间串扰（XT）。如果信号的产生质量是可以接受的，则环境将分配代理选择的资源。处理代理的操作后，环境被配置为为代理提供有关新网络状态的数值奖励和信息。通过仿真将四个不同药物的阻塞性能与MCF-eons中使用的3个基线启发式方法进行了比较。 NSFNET和COST239网络拓扑获得的结果表明，表现最佳的代理平均而言，在阻止最佳性基线启发式方法方面，最多可降低四倍的降低。

translated by 谷歌翻译

Machine learning approaches for COVID-19 detection from chest X-ray imaging: A Systematic Review

Harold Brayan Arteaga-Arteaga , Melissa delaPava , Alejandro Mora-Rubio , Mario Alejandro Bravo-Ortíz , Jesus Alejandro Alzate-Grisales , Daniel Arias-Garzón , Luis Humberto López-Murillo , Felipe Buitrago-Carmona , Juan Pablo Villa-Pulgarín , Esteban Mercado-Ruiz

分类：计算机视觉 | 机器学习

2022-06-11

有必要开发负担得起且可靠的诊断工具，该工具允许包含COVID-19的扩散。已经提出了机器学习（ML）算法来设计支持决策系统以评估胸部X射线图像，事实证明，这些图像可用于检测和评估疾病进展。许多研究文章围绕此主题发表，这使得很难确定未来工作的最佳方法。本文介绍了使用胸部X射线图像应用于COVID-19检测的ML的系统综述，旨在就方法，体系结构，数据库和当前局限性为研究人员提供基线。

translated by 谷歌翻译

A unified framework for dataset shift diagnostics

Felipe Maia Polo , Rafael Izbicki , Evanildo Gomes Lacerda Jr , Juan Pablo Ibieta-Jimenez , Renato Vicente

分类： (统计)机器学习 | 人工智能 | 机器学习

2022-05-17

大多数机器学习（ML）方法假设训练阶段使用的数据来自目标人群。但是，实际上，一个经常会面对数据集偏移，如果考虑到未正确考虑的话，可能会降低ML模型的预测性能。通常，如果从业人员知道正在发生哪种轮班类型（例如，协变量转移或标签转移），他们可能会采用转移学习方法来获得更好的预测。不幸的是，当前用于检测移位的方法仅设计用于检测特定类型的偏移或无法正式测试其存在。我们介绍了一个一般和统一的框架，该框架通过检测不同类型的变化和量化它们的强度来提供有关如何改善预测方法的见解。我们的方法可用于任何数据类型（表格/图像/文本）以及分类和回归任务。此外，它使用正式的假设测试来控制虚假警报。我们说明了我们的框架在实践中使用人工和真实数据集的实践有用，包括一个示例，说明了我们的框架如何导致洞察力确实可以提高监督模型的预测能力。我们用于数据集偏移检测的软件包可以在https://github.com/felipemaiapolo/detectshift中找到。

translated by 谷歌翻译

An Artificial Intelligence Dataset for Solar Energy Locations in India

Anthony Ortiz , Dhaval Negandhi , Sagar R Mysorekar , Joseph Kiesecker , Shivaprakash K Nagaraju , Caleb Robinson , Priyal Bhatia , Aditi Khurana , Jane Wang , Felipe Oviedo

分类：机器学习

2022-01-31

可再生能源的快速开发，尤其是太阳能光伏（PV），对于缓解气候变化至关重要。结果，印度设定了雄心勃勃的目标，可以在2030年之前安装500吉瓦的太阳能容量。鉴于预计大量的足迹可以满足可再生能源能源目标，因此对环境价值的土地利用冲突的潜力很高。为了加快太阳能的发展，土地使用计划者将需要访问PV基础设施的最新，准确的地理空间信息。在这项工作中，我们开发了一种露骨的机器学习模型，以使用自由使用的卫星图像绘制印度的公用事业规模的太阳能项目，平均准确性为92％。我们的模型预测得到了人类专家的验证，以获取1363个太阳能光伏农场的数据集。使用此数据集，我们测量了整个印度的太阳足迹，并量化了与PV基础设施发展相关的土地盖修改程度。我们的分析表明，印度超过74％的太阳能发展是建立在具有自然生态系统保护或农业价值的陆生类型上的。

translated by 谷歌翻译

One System to Rule them All: a Universal Intent Recognition System for Customer Service Chatbots

Juan Camilo Vasquez-Correa , Juan Carlos Guerrero-Sierra , Jose Luis Pemberty-Tamayo , Juan Esteban Jaramillo , Andres Felipe Tejada-Castro

分类：自然语言处理

2021-12-15

客户服务Chatbots是对话系统，旨在为客户提供有关不同公司提供的产品/服务的信息。特别地，意图识别是自然语言低估Chatbot系统的能力的核心组件之一。在聊天训练识别的不同意图中，他们有一组是通用的任何客户服务Chatbot。普遍意图可以包括称呼，将对话交给人类代理人，告别。识别这些普遍意图的系统将非常有助于优化特定客户服务聊天训练过程。我们提出了一个普遍意图识别系统的发展，该系统受过培训，以识别28个不同的聊天跳闸中常见的11个意图组。拟议的系统考虑了最先进的单词嵌入模型，例如Word2VEC和BERT，基于卷积和经常性神经网络的深层分类器。所提出的模型能够区分这些普遍意图，均衡精度高达80.4 \％。此外，所提出的系统同样准确地识别短期和长文本请求中表达的意图。同时，错误分类错误通常发生在具有非常相似的语义领域，例如告别和正面评论之间。建议的系统将非常有帮助优化客户服务Chatbot的培训过程，因为我们的系统已经可用并检测到一些意图。与此同时，拟议的方法将是一个合适的基础模型，通过应用转移学习策略培训更具体的聊天措施。

translated by 谷歌翻译

Interpretable and Explainable Machine Learning for Materials Science and Chemistry

Felipe Oviedo , Juan Lavista Ferres , Tonio Buonassisi , Keith Butler

分类：机器学习

2021-11-01

虽然数据驱动的材料科学和化学方法采用了令人兴奋的，早期的阶段，实现了机器学习模型的真正潜力，以实现科学发现，它们必须具有超出纯粹预测力的品质。模型的预测和内在工作应由人类专家提供一定程度的解释性，允许识别潜在的模型问题或限制，建立对模型预测的信任和揭示可能导致科学洞察力的意外相关性。在这项工作中，我们总结了对材料科学和化学的可解释性和解释性技术的应用，并讨论了这些技术如何改善科学研究的结果。我们讨论了材料科学中可解释机器学习的各种挑战，更广泛地在科学环境中。特别是，我们强调通过纯粹解释机器学习模型和模型解释的不确定性估计的不确定估计来强调推断因果关系或达到泛化的风险。最后，我们在其他领域展示了一些可能会使物质科学和化学问题的可解释性的令人兴奋的发展。

translated by 谷歌翻译

Through-life Monitoring of Resource-constrained Systems and Fleets

Felipe Montana , Adam Hartwell , Will Jacobs , Visakan Kadirkamanathan , Andrew R Mills , Tom Clark

分类：机器学习

2023-01-03

A Digital Twin (DT) is a simulation of a physical system that provides information to make decisions that add economic, social or commercial value. The behaviour of a physical system changes over time, a DT must therefore be continually updated with data from the physical systems to reflect its changing behaviour. For resource-constrained systems, updating a DT is non-trivial because of challenges such as on-board learning and the off-board data transfer. This paper presents a framework for updating data-driven DTs of resource-constrained systems geared towards system health monitoring. The proposed solution consists of: (1) an on-board system running a light-weight DT allowing the prioritisation and parsimonious transfer of data generated by the physical system; and (2) off-board robust updating of the DT and detection of anomalous behaviours. Two case studies are considered using a production gas turbine engine system to demonstrate the digital representation accuracy for real-world, time-varying physical systems.

translated by 谷歌翻译

Towards Computer-Vision Based Vineyard Navigation for Quadruped Robots

Lee Milburn , Juan Gamba , Claudio Semini

分类：机器人

2023-01-02

There is a dramatic shortage of skilled labor for modern vineyards. The Vinum project is developing a mobile robotic solution to autonomously navigate through vineyards for winter grapevine pruning. This necessitates an autonomous navigation stack for the robot pruning a vineyard. The Vinum project is using the quadruped robot HyQReal. This paper introduces an architecture for a quadruped robot to autonomously move through a vineyard by identifying and approaching grapevines for pruning. The higher level control is a state machine switching between searching for destination positions, autonomously navigating towards those locations, and stopping for the robot to complete a task. The destination points are determined by identifying grapevine trunks using instance segmentation from a Mask Region-Based Convolutional Neural Network (Mask-RCNN). These detections are sent through a filter to avoid redundancy and remove noisy detections. The combination of these features is the basis for the proposed architecture.

translated by 谷歌翻译